VLP: A Survey on Vision-language Pre-training

نویسندگان

چکیده

Abstract In the past few years, emergence of pre-training models has brought uni-modal fields such as computer vision (CV) and natural language processing (NLP) to a new era. Substantial works have shown that they are beneficial for downstream tasks avoid training model from scratch. So can pre-trained be applied multi-modal tasks? Researchers explored this problem made significant progress. This paper surveys recent advances frontiers in vision-language (VLP), including image-text video-text pre-training. To give readers better overall grasp VLP, we first review its five aspects: feature extraction, architecture, objectives, datasets, tasks. Then, summarize specific VLP detail. Finally, discuss VLP. best our knowledge, is survey focused on We hope shed light future research field.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

the impact of training on second language writing assessment: a case of raters’ biasedness

چکیده هدف اول این تحقیق بررسی تأثیر آموزش مصحح بر آموزش گیرندگان براساس پایایی نمره های آنها در پنج بخش شامل محتوا ، سازمان ، لغت ، زبان و مکانیک بود. هدف دوم این بود که بدانیم آیا تفاوتهای بین آموزشی گیرندگان زن و مرد در پایایی نمرات آنها وجود دارد. برای بررسی این موارد ، ما 90 دانشجو در سطح میانه (متوسط) که از طریق تست تعیین سطح شده بودند انتخاب شدند. بعد از آنها خواستیم که درباره دو موضوع ا...

15 صفحه اول

the effect of lexically based language teaching (lblt) on vocabulary learning among iranian pre-university students

هدف پژوهش حاضر بررسی تاثیر روش تدریس واژگانی (واژه-محور) بر یادگیری لغات در بین دانش آموزان دوره پیش دانشگاهی است. بدین منظور دو گروه از دانش آموزان دوره پیش دانشگاهی (شصت نفر) که در سال تحصیلی 1389 در شهرستان نور آباد استان لرستان مشغول به تحصیل بودند انتخاب شده و به صورت قراردادی گروه آزمایش و گواه در نظر گرفته شدند. در ابتدا به منظور اطمینان یافتن از میزان همگن بودن دو گروه از دانش واژگان، آ...

15 صفحه اول

A Survey of Current Datasets for Vision and Language Research

Integrating vision and language has long been a dream in work on artificial intelligence (AI). In the past two years, we have witnessed an explosion of work that brings together vision and language from images to videos and beyond. The available corpora have played a crucial role in advancing this area of research. In this paper, we propose a set of quality metrics for evaluating and analyzing ...

متن کامل

Continuing training for the language professions: a survey of needs

This paper discusses a survey carried out by Bradford University Modern Languages Centre with the principal goal of assessing, on the one hand, the current level of use of machine aids among today’s translators and, on the other, the perceived need for familiarisation with such tools. While this aim reflected the general focus of Aslib’s ‘Translating and the Computer’ conference series, the par...

متن کامل

A New Pre-Training Method for Training Deep Learning Models with Application to Spoken Language Understanding

We propose a simple and efficient approach for pre-training deep learning models with application to slot filling tasks in spoken language understanding. The proposed approach leverages unlabeled data to train the models and is generic enough to work with any deep learning model. In this study, we consider the CNN2CRF architecture that contains Convolutional Neural Network (CNN) with Conditiona...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: Machine Intelligence Research

سال: 2023

ISSN: ['2731-538X', '2731-5398']

DOI: https://doi.org/10.1007/s11633-022-1369-5